从文本中提取方面 - 极性对是细粒度情绪分析的重要任务。虽然该任务的现有方法已经获得了许多进展,但它们在文本中捕获方面 - 极性对之间的关​​系,从而降低提取性能。此外,现有的最先进的方法,即基于令牌的SE静态标记和基于跨度的分类,具有它们自己的缺陷,例如极性不一致,从前者中单独标记标记和后者的异构分类导致的极性不一致。其中与方面相关和极性相关的标签混合。为了弥补上述缺陷,从最近的关系提取的进步开始,我们建议直接从具有关系提取技术的文本生成方向极性对,关于方面是各方面是才能的一致关系相应的极性是关系。基于该角度来看,我们介绍了一种位置和方面感知的序列2序列模型,用于宽高学对的关节提取。该模型的特征在于,它不仅通过序列解码中的序列解码而在文本中捕获的宽度极性对之间的关​​系,而且通过位置和方面感知的关注的方面和极性之间的相关性。在三个基准数据集上执行的实验,表明我们的模型优于现有的最先进的方法,对其进行了重大信息。
translated by 谷歌翻译
Causal mediation analysis can unpack the black box of causality and is therefore a powerful tool for disentangling causal pathways in biomedical and social sciences, and also for evaluating machine learning fairness. To reduce bias for estimating Natural Direct and Indirect Effects in mediation analysis, we propose a new method called DeepMed that uses deep neural networks (DNNs) to cross-fit the infinite-dimensional nuisance functions in the efficient influence functions. We obtain novel theoretical results that our DeepMed method (1) can achieve semiparametric efficiency bound without imposing sparsity constraints on the DNN architecture and (2) can adapt to certain low dimensional structures of the nuisance functions, significantly advancing the existing literature on DNN-based semiparametric causal inference. Extensive synthetic experiments are conducted to support our findings and also expose the gap between theory and practice. As a proof of concept, we apply DeepMed to analyze two real datasets on machine learning fairness and reach conclusions consistent with previous findings.
translated by 谷歌翻译
我们提出了一个多能结构的算法框架,该结构从简单的紧凑结构演变为各种复杂的3-D结构,以设计形状可转换,可重新配置和可部署的结构和机器人。我们的算法方法提出了一种将由统一的构件组成的紧凑结构转换为大型,所需的3D形状的方法。类似于可以根据编码的信息成长为预编程形状的多能干细胞,我们称之为DNA,称为合子结构的紧凑型面板可以通过对其连接路径进行编程,可以演变成任意的3D结构。我们的堆叠算法通过将所需结构的体素化表面成反比,从而获得了这一编码序列。应用堆叠算法获得的连接路径,可以将指定的Zygote结构的紧凑型堆叠面板部署到各种大型3D结构中。我们在概念上通过分别释放商业弹簧铰链和热驱动的形状合金(SMA)铰链来证明我们的多能发展结构。我们还表明,所提出的概念可以在较小的工作区中制造大型结构。
translated by 谷歌翻译
弱监督的点云分段,即,由于在整个3D场景中只有几个标记点的点云,因此由于为模型训练收集丰富的密集注释的沉重负担,因此是非常可取的。但是,由于有限的注释数据可能导致标签传播的指导不足,因此现有方法仍然具有挑战性,无法准确细分3D点云。考虑到基于平滑度的方法已经取得了令人鼓舞的进步,在本文中,我们主张在各种扰动下应用一致性约束,以有效地正规化未标记的3D点。具体而言,我们提出了一个新颖的dat(\ textbf {d} ual \ textbf {a} dappive \ textbf {t} ransformations模型,用于弱监督点云进行分割,其中双重自适应转换是通过两种对敌方策略在点 - 级别和区域级别,旨在在3D点云上执行局部和结构平滑度约束。我们在大规模S3DIS和SCANNET-V2数据集上使用两个流行的骨干评估了我们提出的DAT模型。广泛的实验表明,我们的模型可以有效地利用未标记的3D点并在两个数据集上实现显着的性能增长,从而为弱监督的点云进行了新的最新性能。
translated by 谷歌翻译
在这项工作中,我们解决了长尾图像识别的具有挑战性的任务。以前的长尾识别方法通常集中于尾巴类别的数据增强或重新平衡策略,以在模型培训期间更加关注尾巴类。但是,由于尾巴类别的训练图像有限,尾部类图像的多样性仍受到限制,从而导致特征表现不佳。在这项工作中,我们假设头部和尾部类中的常见潜在特征可用于提供更好的功能表示。由此激励,我们引入了基于潜在类别的长尾识别(LCREG)方法。具体来说,我们建议学习一组在头和尾巴中共享的类不足的潜在特征。然后,我们通过将语义数据扩展应用于潜在特征,隐式地丰富了训练样本的多样性。对五个长尾图识别数据集进行的广泛实验表明,我们提出的LCREG能够显着超越先前的方法并实现最新结果。
translated by 谷歌翻译
半监督分割在医学成像中仍然具有挑战性,因为带注释的医学数据的量通常受到限制,并且在粘合边缘或低对比度区域附近有许多模糊的像素。为了解决这些问题,我们主张首先限制有或没有强大扰动的样品的一致性,以应用足够的平滑度正则化,并进一步鼓励班级分离以利用未标记的模棱两可的像素进行模型培训。特别是,在本文中,我们通过同时探索像素级平滑度和类间的分离,为半监督医学图像分割任务提出了SS-NET。像素级平滑度迫使模型在对抗扰动下产生不变结果。同时,阶层间的分离限制各个类特征应接近其相应的高质量原型,以使每个类别的分布紧凑和单独的不同类别。我们针对公共LA和ACDC数据集的五种最新方法评估了我们的SS-NET。在两个半监督的设置下的实验结果证明了我们提出的SS-NET的优势,在两个数据集上都实现了新的最先进(SOTA)性能。该代码可在https://github.com/ycwu1997/ss-net上找到。
translated by 谷歌翻译
现有的锚定面向对象检测方法已经实现了惊人的结果,但这些方法需要一些手动预设盒,这引入了额外的超参数和计算。现有的锚定方法通常具有复杂的架构,并且不易部署。我们的目标是提出一种简单易于部署的空中图像检测算法。在本文中,我们介绍了基于FCOS的单级锚定旋转对象检测器(FCOSR),可以在大多数平台上部署。 FCOSR具有简单的架构,包括卷积图层。我们的工作侧重于培训阶段的标签分配策略。我们使用椭圆中心采样方法来定义面向定向框(obb)的合适采样区域。模糊样本分配策略为重叠对象提供合理的标签。为解决采样问题不足,设计了一种多级采样模块。这些策略将更合适的标签分配给培训样本。我们的算法分别在DOTA1.0,DOTA1.5和HRSC2016数据集上实现79.25,75.41和90.15映射。 FCOSR在单规模评估中展示了其他方法的卓越性能。我们将轻量级FCOSR模型转换为Tensorrt格式,该格式在Dota1.0上以10.68 fps在jetson Xavier NX上实现73.93映射。该代码可用于:https://github.com/lzh420202/fcosr
translated by 谷歌翻译
跨模型检索已成为仅限文本搜索引擎(SE)最重要的升级之一。最近,通过早期交互的成对文本图像输入的强大表示,Vision-Language(VL)变压器的准确性已经表现优于文本图像检索的现有方法。然而,当使用相同的范例来推理时,VL变压器的效率仍然太低,不能应用于真正的跨模型SE。通过人类学习机制和使用跨模型知识的启发,本文提出了一种新颖的视觉语言分解变压器(VLDEFormer),这大大提高了VL变压器的效率,同时保持了它们的出色准确性。通过所提出的方法,跨模型检索分为两个阶段:VL变压器学习阶段和V​​L分解阶段。后期阶段发挥单一模态索引的作用,这在某种程度上是文本SE的术语索引。该模型从早期交互预训练中学习跨模型知识,然后将其分解为单个编码器。分解只需要监督和达到1000美元+ $倍的小目标数据集,并且少于0.6美元\%平均召回。 VLDEFormer还优于COCO和FLICKR30K的最先进的视觉语义嵌入方法。
translated by 谷歌翻译
Unsupervised domain adaptation (UDA) for semantic segmentation is a promising task freeing people from heavy annotation work. However, domain discrepancies in low-level image statistics and high-level contexts compromise the segmentation performance over the target domain. A key idea to tackle this problem is to perform both image-level and feature-level adaptation jointly. Unfortunately, there is a lack of such unified approaches for UDA tasks in the existing literature. This paper proposes a novel UDA pipeline for semantic segmentation that unifies image-level and feature-level adaptation. Concretely, for image-level domain shifts, we propose a global photometric alignment module and a global texture alignment module that align images in the source and target domains in terms of image-level properties. For feature-level domain shifts, we perform global manifold alignment by projecting pixel features from both domains onto the feature manifold of the source domain; and we further regularize category centers in the source domain through a category-oriented triplet loss and perform target domain consistency regularization over augmented target domain images. Experimental results demonstrate that our pipeline significantly outperforms previous methods. In the commonly tested GTA5$\rightarrow$Cityscapes task, our proposed method using Deeplab V3+ as the backbone surpasses previous SOTA by 8%, achieving 58.2% in mIoU.
translated by 谷歌翻译
Different people speak with diverse personalized speaking styles. Although existing one-shot talking head methods have made significant progress in lip sync, natural facial expressions, and stable head motions, they still cannot generate diverse speaking styles in the final talking head videos. To tackle this problem, we propose a one-shot style-controllable talking face generation framework. In a nutshell, we aim to attain a speaking style from an arbitrary reference speaking video and then drive the one-shot portrait to speak with the reference speaking style and another piece of audio. Specifically, we first develop a style encoder to extract dynamic facial motion patterns of a style reference video and then encode them into a style code. Afterward, we introduce a style-controllable decoder to synthesize stylized facial animations from the speech content and style code. In order to integrate the reference speaking style into generated videos, we design a style-aware adaptive transformer, which enables the encoded style code to adjust the weights of the feed-forward layers accordingly. Thanks to the style-aware adaptation mechanism, the reference speaking style can be better embedded into synthesized videos during decoding. Extensive experiments demonstrate that our method is capable of generating talking head videos with diverse speaking styles from only one portrait image and an audio clip while achieving authentic visual effects. Project Page: https://github.com/FuxiVirtualHuman/styletalk.
translated by 谷歌翻译